谷歌DeepMind AI已經(jīng)掌握超難雅達(dá)利游戲
2016-06-10 來(lái)源: cnbeta網(wǎng)站
與李世石一戰(zhàn)成名后,AlphaGo背后的谷歌DeepMind人工智能團(tuán)隊(duì)越來(lái)越受到業(yè)界關(guān)注。DeepMind團(tuán)隊(duì)的*Demis Hassabis與游戲界的淵源由來(lái)已久,在AlphaGo成名之前DeepMind團(tuán)隊(duì)最初用來(lái)測(cè)試AI的都是雅達(dá)利的老游戲。

最早DeepMind的老版本AI在超難的游戲《Montezuma’s revenge》中表現(xiàn)欠佳,但是在經(jīng)過(guò)長(zhǎng)時(shí)間的學(xué)習(xí)和試錯(cuò)后,DeepMind團(tuán)隊(duì)新版本的AI真正地掌握了游戲大師級(jí)技巧。其學(xué)習(xí)過(guò)程并無(wú)采取任何捷徑,沒(méi)有被提供額外的信息。真正地模仿人類學(xué)習(xí)過(guò)程,DeepMind的人工智能已經(jīng)學(xué)會(huì)了躲避技巧,拾取鑰匙,像專家一樣努力爭(zhēng)取最高分。
DeepMind在新版本的AI中加入了一種名為“好奇心”的內(nèi)部激勵(lì)機(jī)制,游戲AI能夠更趨向于獲得更高分,并積極探索更多不同的游戲方法獲得更好的回報(bào)。這項(xiàng)機(jī)制能夠允許新版本 的AI更加積極地去探索游戲要素,掌握游戲方法。
從以下對(duì)比可以看出來(lái),老版本AI僅探索了2間游戲房屋,新版本AI則由新機(jī)制驅(qū)動(dòng)探索了共15間游戲房屋。



